twitter 에서 발표한 ACM Recsys 2019 논문 에 대한 리뷰
목표
CTR 예측을 위한 Continuous learning 에서의 Delayed feedback 의 처리 -최적의 손실 함수와 모델 조합 확인
Delayed feedback
사용자가 아이템에 대한 피드백을 제공하는 데 시간이 걸리는 경우를 의미. 예를 들어, 사용자가 영화를 본 후에 영화에 대한 평가를 제공하는 것이 일반적. 이러한 피드백이 딜레이되면 추천 시스템이 새로운 정보를 고려하지 못하고 지난 정보에만 의존하여 추천을 수행할 수 있음
Solution
- Fake negative 로 초기 레이블링 : click 발생 시 같은 이벤트에 대해 positive label 데이터를 추가 $\rightarrow$ CTR이 낮을 때만 효과적
- 휴리스틱 방식은 잘못된 레이블링 문제와 최적의 window size 에 대한 trade-off 존재
연구 과정
State-Of-The-Art (SOTA) Delayed feedback model : 논문에 나오는 모델을 아래와 같이 정리해봤다.
Importance Sampling : 확률 분포 p(x) 를 알고 있지만 p에서 sample을 생성하기 어려울 때, 비교적 sample 을 생성하기 쉬운 q(x) 에서 생성하여 p 의 기댓값을 계산하는 것.
Importance sampling 은 fake negative 가 포함된 distribution 으로부터 actual data distribution 을 뽑기 위해 활용된다. 이 때, 활용할 loss funciton 을 제안하고 두 모델의 조합에 따른 성능을 비교한다.
- model
- Logistic regression
- Wide-and-deep model
- loss funciton
- Delayed feedback loss [Chapelle, 2014]
- Positive-unlabeled loss (PU loss) [du Plessis et al., 2015]
- Fake negative weighted (FN weighted)
- Fake negative calibration (FN calibration)
연구 결과
- Logistic regression
- Wide-and-deep model
본 논문에서 제안된 두 가지 손실 함수 FN weighted 과 FN calibration 은 Wide-and-deep 모델의 조합이 가장 우수한 오프라인 성능을 보였다.
하지만 제안된 손실 함수는 FN 데이터에 의해 먼저 update 되고 positive 데이터는 나중에 들어오므로 gradient 의 시간적 의존성이 존재함을 고려해야 한다.